[アップデート]Amazon Bedrockのlatency-optimized inference(パブリックプレビュー)が発表されました #AWSreInvent

[アップデート]Amazon Bedrockのlatency-optimized inference(パブリックプレビュー)が発表されました #AWSreInvent

Clock Icon2024.12.03

こんにちは、@TakaakiKakei です。

2024年12月2日~12月6日(米国太平洋標準時)に開催のAWS re:Invent 2024に関連して、以下の新機能についてご紹介します。

  • Amazon Bedrockにlatency-optimized inferenceが発表

https://aws.amazon.com/jp/about-aws/whats-new/2024/12/latency-optimized-inference-foundation-models-amazon-bedrock/

Introducing latency-optimized inference for foundation models in Amazon Bedrock

3行まとめ

  • Amazon Bedrockが基盤モデル向けに、latency-optimized inference(パブリックプレビュー)を発表
  • 精度を損なうことなく標準モデルと比較してレイテンシーを削減
  • 米国東部 (オハイオ) リージョンの Anthropic の Claude 3.5 Haiku と Meta の Llama 3.1 405B および 70B で利用可能

何が嬉しいか

Amazon Bedrockのlatency-optimized inferenceを利用することで、AIアプリケーションの応答速度が大幅に向上し、特にリアルタイム性が求められるチャットボットやインタラクティブなツールのユーザー体験の向上が期待できます。

AWS公式ドキュメント

https://docs.aws.amazon.com/bedrock/latest/userguide/doc-history.html

Amazon Bedrock ユーザーガイドのDocument historyページです。latency optimizedに関する記載がありましたが、リンク先は準備中のようでした。公開を待ちましょう。

CleanShot 2024-12-02 at 22.11.16@2x.png

試してみる

in the US East (Ohio) Region via cross-region inference.

ということでオハイオリージョンのClaude 3.5 Haikuを有効化します。

CleanShot 2024-12-02 at 21.53.41@2x.png

プレイグラウンドで実際に動かしてみます。

まずは、Latency optimizedを有効にしていない状態で動かしてみます。

CleanShot 2024-12-02 at 22.02.53@2x.png

続いて、Latency optimizedを有効にした状態で動かしてみます。

CleanShot 2024-12-02 at 22.03.56@2x.png

Latency optimizedを無効 → Input:18 Output:325 Latency:7104 ms
Latency optimizedを有効 → Input:18 Output:358 Latency:4423 ms

Latency optimizedを有効にしたほうが、Outputが多くなっているのにも関わらず、Latencyが短くなっています。確かに、応答速度が向上していると言えそうです。

録画

参考までに録画も取ってみたので、よかったらどうぞ。

https://x.com/TakaakiKakei/status/1863834413274153028

さいごに

既に早かったClaude 3.5 Haikuですが、Latency optimizedを有効化すると目に見えて速度が向上していました。今後、他のClaude 3系のモデルでも、latency-optimized inferenceが使えるようになると、より多くのユーザーにとって嬉しい機能になるのではないでしょうか。

それではまた!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.